微生物多样性专题 | 扩增子测序分析实战（二）如何通过gi号获取物种注释？ | 自由微信

查看原文

其他

微生物多样性专题 | 扩增子测序分析实战（二）如何通过gi号获取物种注释？

2017-09-01 生信控

文：向屿 | 编辑：湖心

本文系原创转载需授权

微生物多样性专题

扩增子测序分析实战（二）

如何通过gi号获取物种注释？

大家还记不记得我们上一期在讲（二）数据库整理之FunGene 的时候，抛出了一个问题，如何通过核酸序列gi号获得其对应的物种注释信息？本期，小编将为大家详细讲解这个问题的解决方法！

思路比较简单，需要两个文件：

1、gi号和taxid的对应文件；

2、taxid和物种注释的对应文件；

由此即可得到gi号和物种的对应关系，实现步骤如下：

1、gi2taxid

NCBI官网提供了该数据：

gi_taxid_nucl.dmp/gi_taxid_prot.dmp

下载地址：

ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/

ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz

# 核酸gi与taxid的对应关系，本期只需要这一个

ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_prot.dmp.gz

# 蛋白gi与taxid的对应关系，是附送下载的

2、taxid2taxonomy

NCBI提供taxid及其物种信息ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip，我们在之前的（二）数据库整理之 taxdmp 中已经做了初步介绍，已知整理起来相当复杂，所以小编这次就给大家介绍一个更容易操作的小工具：ncbitax2lin，可以实现taxid及其对应物种的下载及整理，在GitHub的网址 https://github.com/zyxue/ncbitax2lin，安装使用如下：

文件操作会消耗较大的资源，建议在服务器较空闲的时候进行

2.1、工作目录

cd /home/panrf/database/NCBI

2.2、下载

wget https://codeload.github.com/zyxue/ncbitax2lin/zip/master

2.3、解压并删除压缩包

unzip master && rm master

2.4、 cd ncbitax2lin-master

2.5、make # this will download the latest taxdump from NCBI, and run the scripts to regenerate all latest lineages fromit

如果显示如下报错：

不要惊慌，此时数据下载已经完成，当前文件夹下执行解压缩

tar zxvf./taxdump/taxdump.tar.gz

2.6、执行文件整理的操作：

python ncbitax2lin.py --nodes-file taxdump/nodes.dmp

--names-file taxdump/names.dmp -o lineage

【所以也可自行下载并解压taxdump.tar.gz 然后运行该步骤】

...

当前目录下生成 lineages.csv.gz，解压即可！

2.7、完成上述步骤，最终生成的 lineages.csv 文件，内容如下：

注：第一列为taxid，其后为各水平的注释信息~

三、gi2taxonomy

* 4亿条 protgi2tax 记录以及 6亿条 nuclgi2tax 记录 *

基于上述两个步骤生成的文件，以taxid作为桥梁，将gi2taxid 和 taxid2taxonomy 结合提取gi号对应的物种注释即可，还是要在服务器上用编程语言实现，个人电脑带不动！

最终在output目录下会生nuclgi2tax／protgi2tax

文件，第一列为gi号，第二列为8个水平的物种注释：

对，就是它！赶快拿去整理FunGene数据库吧！

温馨提示：

1、该数据将用于结合blast+结果为序列提供物种注释，由于数据量比较大，可以考虑将数据拆分，并行处理。

split -l 30000000 nuclgi2tax /home/pub/database/NCBI/taxonomy/nuclgi2tax.spl

# 每个拆分文件的行数可以根据要拆分为多少个文件去计算得到

split -l 20000000 protgi2tax /home/pub/database/NCBI/taxonomy/protgi2tax.spl # 拆分为protgi2tax.spl*

2、NCBI同时提供了accession2taxid 数据：

ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！